MUL R0, R13, R14  ; i = blockIdx * blockDim
ADD R0, R0, R15   ; i = blockIdx * blockDim + threadIdx ,为此 R0 存储的就是 当前计算核心的不同的块中唯一的检索信息
